智能数据基础设施:释放AI潜力的关键一步
引言
我们所熟知的世界正以前所未有的速度发生着变革。人工智能(AI)已成为企业和政府机构关注的热点领域。为了应对严峻的市场挑战,在竞争激烈的市场中脱颖而出,并抓住颠覆和超越竞争对手的机会,企业越来越倾向于利用机器学习(ML)、自然语言处理(NLP)和生成式人工智能(GenAI)等新技术。如今,企业正迎来数字化转型的全新阶段:AI转型时代。在这个时代,AI无处不在,深度融入企业的各个方面。从数字个人助理到医疗保健领域由AI主导的治疗性发现,这些复杂系统正深刻地改变着我们的生活、工作和商业模式。
根据IDC发布的《全球人工智能系统支出指南,V1》(2024年2月版)——该指南追踪了各行业和应用场景中AI软件、硬件和服务的支出情况——预计全球企业将在2024年投入2320亿美元用于AI解决方案。这一数字预计将以31%的复合年增长率(CAGR)增长,到2027年达到5120亿美元。这一增长速度是同期全球IT支出五年复合年增长率(5.7%)的五倍多。AI、ML和GenAI的快速发展证明了它们在推动创新、提高效率和开拓新收入来源方面的巨大潜力。企业领导者普遍期待着随着每个后续的AI应用场景或应用的实施,能够实现更快的上市速度和更低的成本。然而,许多企业在拓展其AI应用时往往难以保持这种势头。成本高昂、技能缺乏、高质量数据集难以获取以及数据安全和隐私问题是负责任地拓展AI面临的主要障碍。
灵活的数据访问:能够随时随地访问任何数据。 主动的数据管理:实现卓越的数据安全、保护和治理。 适应性运营:在最大化基础设施和应用性能和效率的同时优化成本和可持续性。
构建了具备上述能力的智能数据基础设施,可以最大限度地提高AI知识工作者的生产力,并将企业推向更为一致的成功,使其利用AI为业务取得更大成就。
将AI转型作为其业务战略基础的领先企业,在规模上负责任地这样做。它们比竞争对手更快地推动运营效率、吸引新客户,并开发新的收入来源。IDC将这些公司称为“AI大师”。
AI大师的身影遍布各个行业,以下是一些典型案例:
爱尔兰康姆比叉车公司(Combilift):通过实施基于AI的产品推荐器,Combilift显著提高了备件服务效率和客户满意度。订单错误率降低了70%,每笔交易收入增加了30%。这一战略举措充分展现了AI在优化运营流程和提高盈利能力方面的变革潜力。 斯柯达汽车(Skoda Auto):采用AWS的Magic Eye进行预测性维护,斯柯达汽车显著提高了电动车生产效率。先进的数据分析和实时监控大大减少了装配线中断,展示了其对制造挑战的主动应对能力。 雅诗兰黛(Estée Lauder):与Google Cloud合作,雅诗兰黛利用生成式AI提升了在线消费者体验。个性化的数字互动和对消费者情感的洞察显著改善了其全球品牌组合的运营和消费者满意度。
规模化负责任地部署AI的关键要务
任何组织在踏上AI转型之旅时,都渴望利用预测性、解释性和生成性的AI技术。它们通过整合内部和外部的多样化数据集,来挖掘深层次的洞察,这些洞察中可能包含敏感且可识别的个人信息。负责地拓展AI计划的目标,必须是以一种无缝对接的方式达成。
上图概述了三个核心要点,它们为AI的负责任规模化部署奠定了基础。数据架构的灵活性、治理与安全性以及资源效率,都能极大地推动团队的生产力,并进而优化业务成果。而智能数据基础设施,正是实现这些要点的关键所在。
对于负责执行AI转型战略的IT企业来说,这意味着需要构建一个数据架构和相应的支持基础设施,它们应具备以下特点:
为企业内正在实施的众多AI应用场景提供一站式访问企业数据的便利。 确保跨所有数据全面执行安全性和治理政策,以维护企业的声誉。 在AI计划中达到最佳的资源效率和可持续性目标。 确保所有参与AI工作流的团队(包括IT、数据科学、数据工程师和开发人员)能够高效协作,保持高效的工作效率。
什么是智能数据基础设施?
智能数据基础设施提供了高度的灵活性,使得用户能够在任何地方访问任何类型(包括结构化、非结构化和半结构化)的数据。它还提供主动数据管理,以实现卓越的数据安全、保护和治理。此外,它通过适应性运营来最大化基础设施和应用程序的性能和效率,同时在成本和可持续性方面进行优化。
关键发现
在负责任和可拓展的AI实施中,数据基础设施扮演着基础且关键的角色。设计和规划过程中的选择,将对业务结果产生深远的后续影响。简言之,基础设施的强健程度,直接决定了其支持实现业务目标的能力。
业务驱动因素
AI大师相较于AI新兴者,能够更快、更稳定、更精准地实现预期业务成果。对于AI大师来说,AI转型的价值观已融入企业文化。他们利用AI提升运营效率,从而加快从订单到交付的创新速度,推动产品和服务的升级销售与跨销售,削减低利润产品和服务,减少浪费。同时,他们借助AI提升员工生产力,在决策中引入AI辅助的闭环流程,增加实现更佳业务成果的机会。此外,相较于成熟度较低的企业,更多的AI大师正在利用AI推动企业的可持续发展目标。
AI计划失败的原因
IDC研究显示,并非所有AI计划都能如愿实现业务目标。AI大师的平均失败率为13%,而AI新兴者的平均失败率则高达20%。然而,两者失败的原因不尽相同。AI大师因设定了更为宏大的AI目标,其失败多与数据相关(如数据访问限制、变更管理、数据过时和数据不足)。而AI新兴者除了面临类似的挑战外,还额外受到预算限制、数据质量差、基础设施复杂性和大数据量等问题的困扰。
改善业务结果
企业踏上AI征程之初,新AI计划带来的增量收益尤为显著。AI成熟度较低的企业更容易抓住易于实现的机会,实现即时且实质性的收益。这些收益包括通过AI减少故障点增强业务韧性,推出新的AI赋能产品与服务增加利润,优化支出实现更大的成本节约,以及利用AI进行判断分析降低业务风险。随着AI新兴者持续深入AI之旅,他们将通过长期投入和不懈努力,开始实现更为复杂的业务目标,这需要时间来发展、应用和掌握。
这种早期的AI计划成功,通过AI新兴者业务结果的显著改善得到了验证。对于AI新兴者而言,由于可以利用的“易于实现的机会”较多,其业务结果在12个月内的改善往往超过更成熟的竞争对手。随着企业逐渐成熟,业务结果在12个月内的增量改善逐渐减少,但长远来看,AI带来的利益将持续增加。
提升基础设施灵活性以增强数据可用性
在设计和规划过程中,我们必须充分考虑基础设施的灵活性。AI工作流程复杂多变,需要超高性能、大规模处理和高IOPS的能力。这些工作流程的部分内容最终将同时存在于公有云、私有云以及非云环境中,特别是在最成熟的企业中。由于数据输入到AI和GenAI工作流的动态性,对多模态数据(即,结构化和非结构化数据集以及不同特征数据类型的组合存储库)的即时访问至关重要。这种动态性还要求我们采用通用控制平面和管理工具,以及强大的治理、安全性和数据保护能力,并与专用、共享云环境及服务商实现无缝集成。
AI大师深知,他们所部署的用于转型性AI计划的数据基础设施,能够即时访问企业数据集,或者仅需简单准备或预处理即可使用。他们设计了一个统一的、混合的、多云操作环境,支持多种数据类型和访问方法。
AI大师深知这并非“一劳永逸”的决策,因此他们在设计环境时,确保它能够轻松适应未来在性能、容量和数据服务方面的需求。
AI大师在以下三个关键的数据相关方法上超越了不太成熟的同行:
充分利用企业存储系统和服务与公有云服务商提供的原生AI服务(例如,托管的生成式AI服务、托管的MLOps平台和原生数据管道服务)之间的第一方集成。 无缝且安全地将企业的私有数据与云AI服务集成,允许企业采用检索增强生成(RAG)等方法,利用私有数据微调GenAI模型的响应。 利用现有数据,借助在成熟企业中日益普及的新技术,如“原地摄取”,该技术消除了仅为将数据用于生成式AI模型训练而移动数据或创建新的数据孤立库的成本和复杂性。
强化数据治理与安全保障
通常用于AI训练和推理的数据类型涵盖了企业中最敏感的数据集。当这些数据在AI计划中合并时,与其它企业数据工作流相比,企业因意外或潜在恶意行为而面临的风险会显著上升。AI与创新紧密相连,而AI的治理正是这种创新的坚强后盾。缺乏数据谱系跟踪,企业可能会陷入数据和模型污染、个人身份信息(PII)泄露、结果偏见和幻觉等问题的漩涡。同样地,从模型训练数据集中过滤和排除知识产权或私密及个人信息(PPI)数据,并通过GenAI算法限制(或消除)这类数据的暴露,是关键的治理和安全要求。防止恶意数据访问是一个长期需要关注的领域。对这些类型暴露的担忧可能会阻碍甚至扼杀创新。而完善的治理保护措施则能让企业加速创新,因为他们深知其数据的安全性。
在某些地理区域,根据当地文化规范,即使数据没有法律或监管限制,企业若在作为敏感数据管理者的角色中处理不当,也可能失去客户的信任。因此,治理和安全执行在企业内部是衡量成熟度的关键标志。对于企业而言,负责和安全地管理数据是一个永恒的话题。在这个过程中,一个或多个AI利益相关者可能会试图简化流程以加快开发和部署;企业应准备好应对这些可能更重视灵活性和价值实现时间,而忽视安全性和治理的利益相关者的潜在抵制。对于AI和GenAI来说,这种做法绝不能成为常态:忽视内部治理、数据的合理使用、隐私问题和偏见可能会摧毁AI计划的价值。在安全性、数据主权和法规遵从方面的失败可能会极大地增加严重财务损失、民事甚至刑事处罚的风险。数据来源、存储库和访问方式的增加意味着企业面临着更多的威胁,而网络事件的规模、范围、速度和复杂性仍在持续上升。因此,企业在启动任何AI计划时,必须优先考虑治理和安全性的投资需求。
确保已制定的AI治理政策和程序在所有AI项目中得到全面或大部分完成和标准化。 他们能够聘请一个独立的内部管理机构来严格执行对AI的负责任和安全使用。换言之,他们让AI的使用过程透明化。 他们有具体的协议和程序来解决所有AI项目中的偏见和/或数据主权问题。 最后,他们有由中央但独立的团队执行的具体政策和程序,以应对数据安全和隐私问题。
资源效率
在追求即时业务成果的同时,如何更有效地管理支持AI和GenAI所需的基础设施,特别是在成本、性能、能源利用和GPU稀缺性方面?本文的这一部分将探讨如何权衡各种因素,选择最具资源效率的解决方案。
评估AI模型开发时资源利用效率的能力,是衡量AI成熟度的一个关键标准。
随着AI技术的快速发展,数据中心的能源消耗也在急剧增加。据国际能源署(IEA)的数据显示,训练一个单一的AI模型所消耗的电力甚至超过100个家庭一年的用电量。另据Epoch的统计数据,用于AI训练的计算功率每6个月就会翻一番。IDC预测,从2022年的23太瓦时(TWh)到2027年的146 TWh,AI数据中心的能源消耗将以44.8%的复合年增长率增长。
这种能源消耗的增长意味着AI的发展具有两面性。它既可以成为应对气候变化的强大工具,如提高能源网络效率、对气候变化进行建模或监督气候条约的执行;但同时,运行AI所需的计算和存储基础设施也是耗能且资源密集型的。大型语言模型的训练和微调需要大量基础设施支持,这可能导致数据中心能源消耗的增加,进而需要大量的水来冷却其处理器。为了减少数据中心的排放,行业参与者已经采取了多种策略,如投资可再生能源和使用碳信用额度。尽管这些措施取得了一定成效,但不断增长的AI应用需求仍需采取更多措施以实现有意义的减排。
一个有效的管理成本和能源使用的策略是合理选择进行训练、微调和推理的地点。企业需要在最大化能源效率与确保数据隐私、主权和性能优势之间找到平衡。
建设、外购或调整
影响资源效率的另一个关键决策是确定为每个应用场景是建设、外购还是调整(或兼而有之)AI模型。虽然公司过去常选择自行建设而非外购,但对于追求生成式AI计划的企业来说,出现了第三种选择:调整或定制现有模型。
这三种方法各有利弊,包括总拥有成本(TCO)和投资回报率(ROI)、所需的时间和技能资源,以及确保公司知识产权、公司和客户数据都符合数据保护、安全性、隐私、合规性和治理要求。
对于那些在企业中具有重大竞争优势,且具备必要技能、数据和预算的应用场景,企业可能会选择参数高效的微调和/或使用RAG技术进行接地。这种方法强调优化基础设施,并支持资源效率。相反,对于许多应用场景,企业可以使用现成的解决方案,从而减轻额外的资源开销。
小语言模型提高效率
另一个旨在提高效率的趋势,特别是在企业中,是使用较小的、预先构建的生成式AI模型:小语言模型(SLM)。在将模型转移到运行时环境之前,SLM会经过RAG调整或定制。SLM可以专注于与正在开发的模型相关的特定应用场景的LLM部分。这种场景化和消除非必要的模型元素提高了性能,并减少了实现目标结果所需的GPU和基础设施资源。
存储优化
根据我们的调查,确认整体资源效率最重要的领域之一与存储优化紧密相关:63%的受访者表示,他们的存储需要进行重大改进或彻底改造,以便为AI使用进行优化。
由于资本成本高昂和当前经济不确定性,企业过度配置资源以确保AI在企业中发挥作用可能是不明智的。这可能会使焦点和资源从其它关键的IT项目转移,增加风险并在企业中积累技术债务。然而,试图在有限的预算下部署AI或生成式AI可能会影响价值实现时间、资源利用率和工作人员生产力,从而降低总回报。
找到这两个极端之间的平衡是企业成功的必要条件。消除瓶颈,将数据快速、无缝地提供给混合多云环境中成本效益最高的基础设施,并确保只有正确的数据成为AI工作流的一部分,这些都是优化AI基础设施环境和提升AI效益的关键。这种方法还确保每个应用场景的模型训练尽可能地具有针对性和高效性。
在拓展AI时避免数据问题
当存储基础设施帮助企业规避存储性能瓶颈,并消除孤立的数据集存储时,AI计划在规模上得以提升效率。这种方法减少了不必要的数据副本,同时有效管理企业内所有数据的生命周期。
AI领先企业已在整个企业和所有AI项目中基本实现了这些指标和流程的标准化。因此,尽管一些挑战依然存在,但与更成熟的同行相比,AI新兴企业在AI建模过程中在存储、副本数据管理和数据生命周期方面遇到的问题更多。换句话说,对于大多数企业,包括一些AI领先企业,在存储、副本数据管理和数据生命周期方面仍面临持续的挑战。
生产力
在AI计划中,生产力的核心衡量标准是内部技能的基础可用性。对于AI新兴企业而言,这一限制比对已经掌握必要技能以推动AI成功的领先企业来说是一个更大的挑战。
一旦关键人员通过培训或引进提升了技能,只有当AI工作流中的每个利益相关者都能充分发挥并高效协作时,AI转型才能迅速且持续地实现其所述的业务成果。AI转型的技术和流程是确保最终用户生产力的关键。它们为用户和运营商的工作流程奠定基础,并创造了在AI和生成式AI转型中取得成功所需的创新和竞争环境。当技能短缺时,技术和流程可以帮助提高这些稀缺人才的生产力(例如,灵活的数据架构、数据治理和安全性)。
例如,AI领先企业不仅在运营方面追求生产力优化,而且在整个AI转型过程中都有寻找和使用AI模型中的数据的成熟流程。
AI领先企业已在IT运营、数据科学和工程以及开发团队之间实现了高水平的协作,比起不那么成熟的同行,他们之间的协作水平被报告为完美或优秀,这直接导致了与期望从AI计划中获得的业务结果直接相关的持续和可衡量的效率。
成熟企业的一个特征是拥有一个IT卓越中心(COE),其中AI COE作为IT COE内的一个子组。AI COE方法具有诸多优势,包括集中资源和基础设施,确保流程和数据访问的治理,并消除数据孤岛。
拥有AI COE的企业还采用企业管理的MLOps控制平台,而不是专有的公共云平台。后者易于启动,但往往会导致不必要的长期依赖。
此外,由于这种高度的协作,AI领先企业已经达到了最佳生产力水平,因此,他们的IT运营团队在管理非结构化、结构化和流数据类型时不需要进行过多的持续改进。
IT决策者关键指南
IDC发现,尽管变革性企业充满热情并付出努力,但平均而言,仍有13%至20%的AI计划会遭遇失败。那些从统一的人员、流程和技术方法出发,并强调效率、灵活性、治理和安全性的企业,在实现期望的业务结果方面将更具优势。本研究揭示的AI大师的行为可为最佳实践提供指导,并最大限度地减少经验不足的AI从业者可能遭遇的困境,从而充分利用这些努力所带来的价值。
减少失败可能性
无法访问数据(基础设施故障)
尽管在不成熟的AI企业中表现平平,但这却是AI大师在其AI计划中失败的主要原因。在AI转型的每个阶段,确保在正确的时间将正确的数据放入正确的环境并提取质量洞察至关重要。选择错误的部署模型、基础设施提供商或数据架构可能会严重降低任何AI项目的价值。因此,灵活性和效率是实现这一领域积极结果的必要条件。
无法访问数据(业务限制)
数据的共享和协作以及生产力问题是数据领域面临的另一个挑战。如果缺乏对特定应用场景的干净、合适且符合隐私、安全、管理和法规要求的数据的广泛访问,就难以从AI计划中获得有价值的洞察。基础设施的孤立可能会妨碍团队的协作,而生产力的提升则依赖于AI转型团队在确保安全和合规的前提下共享数据的能力。AI并非特殊领域,不需要专门的存储基础设施;相反,理想的情况是现有的企业级存储基础设施能够满足AI的需求。这样,企业的所有数据都能得到充分利用,而不是被局限在孤立的存储库或企业的其它部分。
充分发挥成功潜力
通过灵活的基础设施增加数据可用性
AI大师为转型性AI计划部署灵活的基础设施,以轻松访问企业数据,几乎无需准备或预处理。这些企业深知,一个统一的、混合的、多云操作环境必须支持多模态数据以及多种数据访问方法。
治理和安全是创新的助推器
正确的安全、数据主权和法规合规方法可以降低或消除AI和生成式AI计划中的风险。在开始AI计划时,将治理和安全置于关注和投资的首要位置,可以确保数据工程师和科学家无需担心数据的安全性和合规性,而是始终保持最大的效率和生产力。制定明确的流程和关键绩效指标以应对偏见、隐私和安全、数据主权以及负责任的AI使用,对于寻求提高业务成果成功率的企业至关重要。
AI架构离不开智能存储基础设施的支持
制定基础设施决策时,不仅要考虑管理AI的资源密集度和成本,还要实现积极的业务结果。确保成本优化、高效的计算、存储和资源利用至关重要。AI解决方案必须既有效又经济、运营可持续,否则其价值将被高昂的执行成本所抵消。公司需要明确的流程和指标,将适当和高效的资源使用纳入AI项目成功的标准之中。
最大化计算基础设施的利用率(如利用GPU加速服务器) 提升能源效率,减少占地面积、功耗和冷却成本 避免数据孤岛蔓延,确保数据畅通无阻 管理数据生命周期,优化复制数据管理、去重和压缩,防止旧、重、无用数据进入建模流程 部署适合用途的数据架构,支持统一存储 限制数据不必要的移动(如采用“就地摄取”,直接生成向量嵌入供RAG使用)
技术和流程的优化是确保高技能团队高效运作的关键。
ITOps、数据科学家和开发人员之间的紧密协作是AI和GenAI转型的基石。优化的技术和流程为这种协作提供了坚实的基础。通过简化数据访问、确保数据可信度的数据流水线、完善的治理和安全措施,以及对结构化、非结构化和流数据的协作访问,可以确保从AI卓越中心到个人实践者都能为这些新兴的AI和GenAI应用场景贡献最大价值。
结论
AI并非昙花一现的潮流,而是影响全球商业格局的最具颠覆性力量之一。其商业价值毋庸置疑,据IDC研究表明,早期导入者正积极利用AI,并报告平均每投资一美元可获得3.5倍的回报。
尽管围绕AI/ML和GenAI的热潮可以理解,但保持理性的视角至关重要。根据本研究,仅有15%的受访者属于AI大师。他们正在制定指导未来发展的最佳实践,涵盖数据架构、治理和安全、资源效率以及团队生产力。
构建智能数据基础设施应该是雄心勃勃的企业有效利用AI的第一步。它应具备以下特点:灵活的架构,支持在任何地方访问数据;积极的数据管理,满足关键的安全和治理要求;适应性运营,实现性能和效率目标;以及重要的资源效率和成本管理能力,这都是关键的业务需求。
通过这种综合性的方法,正如AI大师的应用实践所示,企业可以真正释放数据价值,并为未来多年实现有意义且实质性的业务成果改善。
Source:Dave Pearson, Ritu Jyoti, Ashish Nadkarni; Scaling AI Initiatives Responsibly: The Critical Role of an Intelligent Data Infrastructure; 7 May 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)